#cadenas de razonamiento

LongTraceRL: Razón de largo contexto con recompensas de rúbrica

LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.

2026-06-01 · 1 min

Omanic: Hacia la Evaluación Paso a Paso del Razonamiento Multi-salto en Modelos de Lenguaje Grande

2026-05-27 · 1 min